Approches endogène et exogène pour améliorer la segmentation thématique de documents
نویسنده
چکیده
Topic segmentation was addressed by a large amount of work from which it is not easy to draw conclusions, especially about the need for knowledge. In this article, we propose in the same framework two methods for improving the results of a topic segmenter based on lexical reiteration. The first one is endogenous and exploits the distributional similarity of the words of a document for discovering its topics. These topics are then used to facilitate the detection of topical similarity between discourse units. The second approach achieves the same goal by relying on an external resource, that is a network of lexical co-occurrences built from a large corpus. These two approaches are also combined. An evaluation of these approaches and their combination is performed in a reference framework and shows the interest of this combination. MOTS-CLÉS : analyse thématique, segmentation thématique, découverte de thèmes, cooccurrences lexicales.
منابع مشابه
Découvrir les thèmes d'un document pour en améliorer la segmentation thématique
La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons ...
متن کاملÉtude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe
Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....
متن کاملEvaluating resource acquisition tools for Information Extraction
This paper evaluates two different approaches for the elaboration of semantic classes. The framework is an Information Extraction, which needs large amount of domain-dependent resources. An endogenous approach (corpus-based learning) is contrasted with a heterogeneous one (the use of a large semantic network). The two techniques are evaluated. Cet article vise à évaluer deux approches différent...
متن کاملUn aperçu de la fouille visuelle de données
Résumé. Nous présentons dans cet article un aperçu de la fouille visuelle de données. Pour commencer, nous situons ce domaine par rapport à d’autres approches et nous en rappelons les principes fondateurs. Ensuite, nous montrons qu’il existe de nombreux points de vue pour aborder les travaux en fouille visuelle de données : les données ou connaissances à visualiser, la tâche à accomplir, la rep...
متن کاملIntégration de règles d'association pour améliorer la recherche d'informations XML
RÉSUMÉ. La reformulation de requêtes constitue un moyen d’améliorer la recherche d’informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règle...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- TAL
دوره 47 شماره
صفحات -
تاریخ انتشار 2006